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以知識表徵方法建構台語聲調群剖析器 1 

A Knowledge Representation Method to Implement 
A Taiwanese Tone Group Parser 

張佑竹 * 


Yu-Chu Chang 


摘要 

聲調群剖析器是台閩語語音輸出系統的主要元件之一。本文提出聲調管轄假說， 
主張先將句內語詞定調，亦能決定台閩語聲調群分界的觀點，並以聲調群剖析 
器實作加以驗證。除了敘述如何應用預設調型、預設詞類和模式三種標記符號， 
將語言知識和經驗轉換為知識庫，並說明經由推論引擎與知識庫的連結，完成 
語詞定調的運作過程。目前内部測試平均變調正確率為98.5%。外部測試平均 
變調正確率為94% °本研究的實驗數據也顯示一個重要的線索：符號系統標記 
比規則推論對變調正確性有相對較高的貢獻率。 

關鍵詞： 台灣話，變調，聲調群剖析器，知識表徵，模擬 


Abstract 

A tone group parser could be one of the most important components of the 
Taiwanese text-to-speech system. In this paper, we offered the hypothesis of tonal 
government to emphasis the idea that if the allotone selection can be made for each 
word in a sentence then the tone groups will be separated within the sentence and 
supported our viewpoint with the implementation of a Taiwanese tone group parser. 
In addition to the description of using the symbol system to convert language 
expertise and heuristic knowledge into a knowledge base to cope with a 
frame-based corpus and a tone sandhi processor, the procedure of connecting the 
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inference engine and the knowledge base to make allotone selection was also 
discussed. In the current version of the tone group parser, the average accuracy of 
inside test is 98.5%. The average accuracy of outside test is 94%. The experiment 
data of the study also reveals an important clue: the marking of the symbol system 
makes a higher contribution rate to the tone sandhi accuracy than the rule 
inference. 

Keywords: Taiwanese, Tone Sandhi, Tone Group Parser, Knowledge 
Representation, Simulation 


1. 緒論 (Introduction) 

聲調群 (Tone groups) 是台閩語 2 的基本韻律結構。聲調群剖析器也是台閩語語音輸出系統 
的主要元件之一 (Liim, 2004; 田村志津枝, 2010)o 本文首先從音韻和語言結構的觀點探索 
台閩語的特質，將台閩語如何藉著變調 (Tone sandhi) 形成獨特聲調群結構的衍生過程和 
當代音韻-句法界面的相關研究相互印證，提出聲調管轄假說 (Tonal-government 
hypothesis) 來主張先將句內語詞定調，亦能決定聲調群分界的觀點。隨後說明以台閩語 
變調習得 (Tone sandhi acquisition) 理論為基礎，將知識表徵 (Knowledge representation) 技術 
和語詞屬性分析加以整合，製作聲調群剖析器的方法。 


2. 文獻回顧 (Literature Review) 


2.1 從音韻和語言結構觀點看台閩語特質 (The Nature of Taiwanese 
Language from Phonological and Structural View) 

台閩語為聲調語言。變調是指語詞聲調受到相鄰語詞影響而改變聲調調值的現象，常見 
於中國各地的語言。比較特別的是台閩語語詞具有普遍的變調現象。每個台閩語語詞皆 
有本調 3 (Lexical tone ) 和變調 (Sandhi tone ) 兩種調型 (Tone form ) 。語詞或聲調群的最後音節 
讀本調，其餘音節讀變調 ( Chiu ， 1931;王育德， 1955) °因此，若且唯若一個或一組語詞中 
僅有最後一個音節讀本調，則此一語詞或詞組即為聲調群。換句話說，台閩語語句就是 
聲調群的集合。聲調群不僅是組成台閩語語句的句法單元 (Syntax unit ) ，同時也是完整的 
語義單位 (Semantic unit ) 和韻律結構 (Prosodic structure ) °台閩語很可能是唯一在語句內以 
變調方式建立聲調群結構的自然語言 ( Chang , 2009) 。 


台灣話源自中國閩南方音。公元 2006 年教育部公告台灣閩南語羅馬字拼音方案，台灣話得以文 
字公開傳承。本文例句，採用教育部台灣閩南語（以下簡稱台閩語）拼音加註聲調值。引述論 
文中的 Taiwanese 或台灣語也併譯為台閩語。 

本調 Lexical tone 亦稱 juncture tone ，變調 sandhi tone 亦稱 context tone 。 
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2.1.1 台閩語變調與聲調群的形成 (Taiwanese Tone Sandhi and the Formation of 
Tone Group) 

台閩語的聲調、語義和句法之間有密切的關係。聽話者可以從相同的語句中以聲調來辨 
別不同的詞類 (POS) 和語義。例如，本調相同的 「 ke 55 ( 雞 / 加 ) 」在例句 (1) 和⑺裡，有不同 
的調型、詞類和語義。 

(1) Tsit 31 tsiah 31 ( 變調） ke 55 ( 本調，名詞） tsit 54 kong 55 -kin 55 . ( 這隻雞重一公斤。） 

(2) Tsit 31 tsiah 31 ( 本調） ke 55 ( 變調，動詞） tsit 54 kong 55 -kin 55 .( 這隻多重一公斤。） 

這個例句讓我們注意到人腦雖然可以就台閩語同音異形漢字「雞 / 加」和語境來分析語義 
和句法結構，但是對電腦而言， （ 1) 和⑺的羅馬拼音完全相同，只有自主語義 (Autonomous 
semantic mapping) 確定以後，才能決定 r ke 55 j 的調型或進行句法分析。這部分屬於高階 
人工智能 (Strong AI) 的範疇，也是對話系統必須面對的困境。 

例句 (3) 和 (4) 說明數量詞 IsiPking 55 ( 這間）」的調型視前後文語境而定。 

(3) Tsit 32 king 55 ( 本調） u 33 tsai 55 hue 55 .( 這間房屋有種花。） 

(4) Tsit 32 king 55 ( 變調） u 33 tsai 55 hue 55 e 23 tshu 31 si 33 guan 53 tau 55 .( 這間有種花的房屋是 
我家。） 


從例句⑶⑹⑺和 (8) 可以觀察經由不同形式的插入方式所造成的聲調群變化 (Chang, 
2009) ° 不論插入的形式為何，每個台閩語語句最終都會形成以聲調群組合而成的結構。 

(5) [A 55 -bi 53 ] [beh 32 khi 31 Tai 23 -pak 32 .] ( 阿美要去台北。）有兩個聲調群 4 。 

插入變調語詞 r siunn 33 ( 想）」後，聲調群數目不變。 

(6) [A 55 -bi 53 ] [siunn 33 beh 32 khi 31 Tai 23 -pak 32 .]( 阿美想要去台北。） 

插入本調語詞 r pai 31 -it 32 ( 星期一）」後，聲調群數目增加為三個。 

(7) [A 55 -bi 53 ] [pai 31 -it 32 ] [beh 32 khi 31 Tai 23 -pak 32 .] ( 阿美星期一要去台北。） 


符號 [] 表示聲調群的分界 



76 


張佑竹 


插入聲調群 r tse 33 gu 23 - tshia 55 (坐牛車）」後，聲調群數目增加為三個。 

(8) [ A 55 - bi 53 ] [ beh 32 tse 33 gu 23 - tshia 55 ] [ khi 31 Tai 23 - pak 32 .] (阿美要坐牛車去台北。） 

就句法分析的觀點而言，聲調群必定是 XP(X Phrase ) ，然而並非所有的 XP 都是聲調群。 
聲調群可能是可以轉換為 XP 的先驅結構。 


2.1.2 音韻 ■ 句法界面 (The Phonology-syntax Interface) 

間接指涉假說 (Indirect reference hypothesis ) 指出音韻規則並非由句法直接影響，而是經由 
韻律結構做為連結音韻和句法的媒介 ( Selkirk , 1986) 。這種現象在台閩語尤其明顯。語言 
學習者為了習得句法結構的資訊而應用韻律訊息 (Prosodic cue ) 建立韻律結構。如果兒童 
可以在台閩語句子中標記出聲調群的位置，就可習得有用的句法相關知識 ( Tsay , 1999) 。 
聲調群必定是台閩語語言習得的重要線索。 

2.2 語言習得的模擬 (The Simulation of Language Acquisition) 

Norman Geschwind 對於語言功能如何在大腦皮層的特定區域運作，指出腦皮質裡至少有 
兩個區塊對語言能力有重大影響；這些區塊被精確規劃用來處理言語資訊 ( Geschwind , 
1979) 。即使他關於語言能力主要依賴左半區的理論或有爭議，人類在大腦記憶裡儲存語 
彙的功能則毋庸置疑。嬰幼兒從語音感知 ( Perception ) 中學習語言。及至成長，這種感知 
機制仍然存在 ( Eimas ，1985) 。音節、語詞、片語或韻律單位很可能儲存在腦皮質的記憶 
區塊。因此我們假設台閩語語者在學習母語的過程中，將語詞的詞類和調型標記在記憶 
裡。 


台閩語語詞當中有的語詞讀變調，有的語詞讀本調，也有為數不少的語詞需視詞類 
和語境才能定調。若是依照單音節語詞讀變調，複音節語詞讀本調的單一規則將一篇文 
章粗略定調，可以得到大約70%的變調正確率。實務上，語詞調型的選擇往往和語詞的 
詞類、相鄰語詞和變調規則有關。這類需要規則處理的語詞，通常也是語者用來決定是 
否延伸語意的工具；語詞讀變調，表示該語詞指涉的語意尚待完成。讀本調的語詞則是 
聲調群的分界點，也是一個完整語意單位的結束。某些語詞要讀本調或變調通常取決於 
說話者，他必須在說話前的瞬間作出反應。 

韻律導引假說 (The prosodic bootstrapping hypothesis ) 說明兒童如何學會使用韻律訊 
息幫助自己界定聲調群，尋找句法結構並習得變調。這種技巧讓他得以交互使用語詞的 
本調和變調兩種形式 ( Tsay , 1999) 。值得注意的事實是，以台閩語做為母語的使用者，即 
使無法察覺變調規則的存在或未曾認真學習句法，依然可以精確地處理變調並應用人腦 
剖析器辨識聲調群。同樣地，嬰兒在初學台閩語時，不只不認得語詞也不懂得句法結構。 
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2.3 知識表徵方法的應用 (The Application of Knowledge Representation 
Method) 

Marvin Minsky 認為用來解決問題的系統 ( Problem-solving system ) 可能是認知過程的模 
擬。他提出框架理論的應用 ( Minsky , 1975) 以後，知識表徵便成了人工智能研究的焦點技 
術。知識系統涵蓋知識庫 (Knowledge base ) 、推論引擎 (Inference engine ) 和開發介面三部 
分。知識庫包含目標 ( Goals ) ，規則 ( Rules ) 以及領域專業知識。推論引擎負責規則推論程 
序及策略管制 ( Chang , 1992) 。開發介面則用來和使用者溝通或與其他系統做連結。 


2.4 與本文相關的聲調群研究 (Current Research of the Taiwanese Tone 
Groups) 

現代學者在二十世紀中葉就注意到台閩語聲調群研究的重要性（王育德， 1955) 。語言學 
家用句法分析來辨識台閩語聲調群 ( Cheng , 1968; Chen , 1987; Lin , 1994) 。從語音實驗尋找 
台閩語變調作為韻律分界的證據 ( Tsay , Myers & Chen ，2000) 或是經由研究台閩語鼻音化 
探討韻律階層的聲調群分界，提出聲調群分界是台閩語的韻律單位的主張 ( Pan ，2003) 。 
資訊工程學者也試圖建立台閩語語音輸出系統 ( Liang , Yang , Chiang , Lyu & Lyu , 2004) 或運 
用詞類標記和變調規則處理台閩語變調 ( Iunn , Lau , Tan - Tenn , Lee & Kao , 2007) 。 Pan 指出 
本調語詞是聲調群的分界。若要將句内語詞定調必須先界定聲調群 ( Pan , 2003) 。我們則 
認為若能將句內所有的語詞定調，亦能界定聲調群，因此提出聲調管轄假說來說明台閩 
語聲調群、詞類與聲調調型間的關係。 

3. 聲調管轄假說 (Tonal-government Hypothesis) 

Selkirk 的間接指涉假說指出句法結構並非直接限制音韻規則，而是透過韻律結構，作為 
媒介影響音韻的變化。其間的關係為句法->韻律結構->音韻 ( Selkirk , 1986) 。然而台閩語 
語句由聲調群組成，詞類和聲調調型極有可能藉由變調規則改變韻律結構。例句 (9) 和 (10) 
顯示， khuann 31 的不同調型，在詞類不變的情況下，形成不同的聲調群結構和語義。從 
例句 (11) 和 (12) ，也顯示單音節方位詞的前詞讀變調，複音節方位詞的前詞讀本調的規律 
性。 lai 33 和 lai 33 - te 53 ，因為音節數不同而影響前詞的調型和韻律結構。 

(9) [ Li 53 khuann 31 (動詞，讀本調）] [ kam 53 u 33 ]? (你覺得有沒有？） 

(10) [ Li 53 khuann 31 (動詞，讀變調） kam 53 u 33 ]? (你看得懂嗎？） 

(11) [ Kong 55 - hng 23 (讀變調） - lai 33 ] [ u 33 tsit 54 tsiah 32 kau 23 ]. (公園裡有一隻猴子。） 

(12) [ Kong 55 - hng 23 (讀本調)] [ lai 33 - te 53 ] [ u 33 tsit 54 tsiah 32 kau 23 ]. (公園裡面有一隻猴子。） 


雖然音韻直接影響句法結構的情況在台閩語裡並非常態，聲調變化造成韻律結構改 
變的現象卻屢見不鮮。從圖1可以看出除了韻律結構影響音韻的變化之外，詞類、變調 
規則、聲調調型也會影響或主導韻律結構的形成。值得注意的是在聲調管轄假說涵蓋的 
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範域内，韻律結構與構成音韻變化的因素間存在著明顯的遞迴 ( Recursive ) 現象。以下的 
章節將摘要敘述聲調群剖析器的實作方法，藉以驗證聲調管轄假說存在的可能性。 


句法 （ 詞類） 


°! 

韻律結構 （ 聲調群） 

O • 參 

音韻（規則、調 型 } 

O 間接指涉假說•聲調管轄假說 


圖 1. 台閩語句法、韻律結構和音韻間的關係及相關假說的適用範域 
[Figure 1. The relationship among syntax，prosodic structure and phonology in 
Taiwanesewith the related hypotheses] 

4. 從台閩語語句擷取聲調群的方法 (The Method to Capture the Tone 
Groups from the Taiwanese Sentences) 

Tsay 對於台閩語變調習得的論述凸顯回饋機制對模擬系統的重要性。 Pan 的實驗明確指 
出聲調群是台閩語習得的重要關鍵。這些研究激發我們以個人電腦製作人工聲調群剖析 
器的構想。至於應用符號系統尋找韻律訊息，以聲調群解決多重 POS 語詞變調問題的靈 
感則來自 Selkirk 的間接指涉假說。 

我們的構想是，一旦句内語詞被賦予正確調型，讀本調的語詞就是聲調群分界。實 
作方法就是以台閩語變調習得、間接指涉假說和聲調管轄假說等論述做為基礎，採取預 
設聲調調型為主，預設詞類及前後詞調型模式為輔的規則推論策略，將句内語詞定調後， 
從台閩語語句擷取聲調群。圖2是台閩語聲調群剖析器內，以知識庫為基礎的專家系統 
基本架構示意圖。系統由變調規則庫、框架語料庫和推論引擎組成。這個專家系統將被 
用來推論句內每個語詞的調型值。基於聲調群的生成有明顯的遞迴現象，系統從語句擷 
取的聲調群或聲調群前詞也能經由遞迴機制回饋至語料庫。 
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圖 2. 台閩語聲調群剖析器內以知識庫為基礎的專家系統基本架構示意圖 

[Figure 2. Basic structure of the Taiwanese Tone group parser] 

5. 製作過程摘要 (The Schema of Implementation) 

實作程式適用於個人電腦 Windows XPAVindows 7 作業系統 5 。製作過程摘要分述如下： 

5 Windows XP / Win 7 相容的台閩語聲調群剖析器版本，可從 https :// vikon . myweb . hinet . net / ttgpe.htm 

下載。 
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5.1 語言專業知識的轉換 (The Transformation of Linguistic Expertise 
and Heuristic Knowledge) 

語言專業知識和經驗主要用於規則庫和語料庫。所需語料從詞典、專業文獻和田野調查 
工作等資訊中萃取後，由台閩語專家和知識工程師應用符號系統將語料進行標記並建立 
變調規則庫。符號系統的設計概念，是在早期制定或修改變調規則的過程中所衍生的創 
意。目前建立的符號系統是以預設調型 (Default mark of tone form ) 、預設詞類 (Default POS ) 
和模式 ( Mode ) 三種標記組成。語料庫內的每個資料錄都賦予一組包含這三種語詞屬性的 
符號。這組符號被用來連結語料庫和變調處理器 (Tone sandhi processor ) 。處理台閩語變 
調時，藉著符號系統和規則推論，即使同音異義詞或兼有多種詞類的語詞也能經由變調 
處理程序，予以定調。語料庫和變調處理器建構完成時，語言專業知識也就轉換成為知 
識庫。下列章節將說明組成符號的三個語詞屬性以及應用推論引擎將符號連結語料庫和 
變調處理器的推論過程。 

5.1.1 第一個 屬性： 預設調型記號 (The First Attribute: Default Mark of Tone 
Form) 

台閩語有許多兼具兩種詞類的語詞，或由兩種詞類組合而成的組合詞等。這些語詞要讀 
本調或變調，需視前後詞及語詞在句內的關係位置而定。若不經由變調處理程序進行規 
則推論，無法定調。標記預設調型記號可以篩檢具有固定調型的語詞並排除不必要的規 
則推論。台閩語語詞預設調型記號及處理方式如表1。 


表 1. 台閩語語詞預設調號及處理方式 
[Table 1. The list of default mark of tone form] 


預設調型記號 

預設調型 

適用語詞 

處理方式 

0 

固定讀本調 

只讀本調的語詞 

不需推論 

1 

預設讀變調 

單音節語詞 

以規則推論 

2 

預設讀本調 

預設讀本調的語詞如詞組，輕聲詞，外國語 

以規則推論 

3 

固定讀變調 

只讀變調的語詞 

不需推論 

# 

本調或變調 

可能讀本調或變調的語詞 

以規則推論 

& 

固定讀本調 

聲調群或聲調群集合 

不需推論 


5.1.2 第二個屬性：預設詞類記號 (The Second Attribute: Default POS Mark) 

台閩語有大量的組合詞，其組成元素與句法和構詞有密切關連。組合詞經由變調導致聲 
調的轉變，提供語者和聽者重要的訊息來區別不同的語義或句法結構。然而組合詞也讓 
台閩語詞類標記更加困難。因此我們使用定義較為寬鬆的預設詞類 ( DPOS ) 做為第二個屬 
性。預設詞類有 n ( 名詞/數詞 ） 、v (動詞 ）、 a (形容詞 ） 、 c (連接詞 ） 、m (介詞）、 
d (副詞 ） 、x (助動詞 ） 、p (代名詞）、 11 ( 量詞 ） 、s (語尾詞 ） 、e (方位詞 ）、 g 
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(動名詞 ）、 k (連綴動詞）、& (聲調群）等標記。 

5.1.3 第三個屬性：模式記號 (The Third Attribute: Mode Mark) 

預設調型被標記為1、2或#的語詞或詞組需經規則推論。其中受到前後語詞影響的語 
詞無法經由預設調型和預設詞類定調。必需藉著一組應用二階及三階布林驗證 (Boolean 
verification ) 的模式記號進行規則推論。二階模式記號有 a (-01) 、 b (- ll ) 、 c (-00) > d (-10) 、 
e (10-) 、 f ( ll -) 、 g ( OO -) 、 h ( Ol -) o 三階模式記號有 j (000) 、 k (010) 、 m (101) 、 n ( lll ) 、 p (001) 、 
q (011) 、 r (100) > s (110) 等。 x 則用於不需模式記號的語詞。其中「0」代表本調，「1」代 
表變調，^」用於二階模式以標識非相關前後詞位置。例如 (-01) 為本詞讀本調，後詞讀 
變調的二階模式。 （101) 為前詞及後詞讀變調，本詞讀本調的三階模式。 

5.2 框架結構語料庫製作 (The Construction of a Frame-based Corpus) 

現存的自然語言或因通行已久，或因約定成俗，無法以電腦做邏輯常規處理。因此必須 
建立電腦化的人工語言做為媒介。媒介語的符號和構詞法不受自然語言約束，也能建立 
與自然語言的映射 ( Mapping ) 機制。使用媒介語的好處是語詞的音節變調可以預行轉換， 
不需再經系統處理。 

以物件-屬性-值 ( Object - attribute - value ) 來表徵知識是建構語料庫常見的方法。在框架 
語料庫裡，語詞或詞組可視為一個物件。描述聲調性質的預設調型則是物件的屬性，而 
賦予預設調型記號的^ 2」就是屬性的值。物件和其屬性間自然形成一種階層結構 
(Hierarchy structure ) 。因此台閩語語料庫可以採取一般資料庫的資料結構並將預設調型、 
預設詞類和模式合成一組符號。每個資料錄有符號、媒介語字串和以數字標調的台閩語 
羅馬字字串三個欄位。欄位間以逗號區隔，例如 「2 nx , kangte , kangl - te 7」 。符號標記由 
三個字母構成， 「2 nx 」 用於預設讀本調且不需布林驗證的名詞語詞或名詞組合詞。台閩 
語羅馬字串可以是單音節語詞、複音節語詞、片語、聲調群或詞組。媒介語則是和台閩 
語羅馬字對應的字串。語料庫內的所有語料經過詞頻統計、屬性和功能分析後，被依序 
存放到與大腦長程記憶類似的個別變數陣列，讓系統和規則可以隨時取用。 

資料錄通常以台閩語羅馬字的音節數排序，音節數較多者優先。資料錄如何排序， 
在實務上頗為困難。統計常用語料的詞頻，或可作為排序的參考，但是兩者間並非唯一 
相關。由於台閩語構詞尚未標準化，音節連寫或分寫規則相當複雜，設計語料庫搜尋演 
算法時必須考慮構詞容錯機制，以確保進行推論程序時，系統得以順暢運作。 

5.3 變調處理器的設計 (The Design of the Tone Sandhi Processor) 

在實務上，變調處理器以語詞的多元屬性進行規則推論。所有規則必須預行分類並予優 
先定序。分類時依據相關詞類區分為數個主要區段 ( section )。 系統先從第一區段開始推論， 
如有必要再推論的目標語詞，則轉往下一區段繼續進行。相關規則執行完畢後可直接跳 
到最後區段進行除錯、布林驗證或終結推論等動作。這種推論程序稱為正向連結 (Forward 
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chaining ) 。所有區段內的規則可用迴圈執行若干次，直到字串陣列裡的目標語詞逐一經 
過推論後，取得適當的調型值。 

由於部分規則會處理語詞前後詞間的關係，因此在推論過程中無可避免地，會受到 
規則間的交互影響而改變已推論的前後詞調型值。規則多寡也會影響剖析器的執行效率 
與變調正確率。規則越多，推論所需時間越長，交互影響也更顯著。所以語料庫或規則 
庫更新時都必須執行内部測試 (Inside test ) ，以免造成顧此失彼的窘境。 

5.4 推論引擎與知識庫間的運作過程 (The Operating between Inference 
Engine and Knowledge Base) 

推論引擎主要用來存取語料庫資訊、啟動及控制變調處理程序。内建的搜尋演算法，可 
將指定的羅馬拼音文句和語料庫的語詞做比對，轉換成媒介語文句。這些文句再經語詞 
剖析器切割為媒介語字串存入陣列。每個媒介語字串可從記憶體（變數陣列）取得相關 
屬性值並被賦予一個目標參數，也就是系統要進行推論的預設調型。參數取值的方法不 
外採用預設值、由系統推論取值或從語料庫取值。變調處理器被推論引擎呼叫時，字串 
陣列內的媒介語就會依序進行推論程序。推論機制開始就語料庫提供的資訊和變調處理 
器各個規則的條件部分進行比對。當規則的 IF 部分與相關資訊相符，則 THEN 部分 
的指令就被執行。如果變調處理器已經沒有其他規則被啟動，推論程序就中止並完成目 
標推論。隨後開始下一個字串的推論程序，直到字串陣列所有媒介語都完成推論作業， 
並將目標參數推論值回傳推論引擎。系統進行推論時可能遭遇資訊不足的情況，這時具 
有較高優先的超規則 ( Metarules ) 可從變調處理器直接偵錯、設定或變更相關屬性值。推 
論引擎預設的超規則也可研判是否需要修改變調處理器內的推論結果。這種功能通常用 
來修正錯誤的推論程序或處理例外狀況。 

5.5 語意識別、構詞容錯與機器學習 （Semantic Identification, Fault 
Tolerance and Machine Learning) 

語意識別的方法不外歧義消除或多義選一。台閩語有部分語詞可用一般規則來定調。例 
如 r gah 32 j 的前詞都讀變調。同音異義詞如4 33 」，雖然兼有名詞（箸）和介詞（在） 
的多重詞類屬性，仍然能用相關規則來區別詞類，予以定調。然而對於同形異音異義的 
詞組或片語，例如 4 23 e 23 」 有1勺鞋」或「鞋的」兩種不同的語音和語義，必須具備修 
改規則變數的能力，才能加以分辨。在測試變調處理器時，我們針對上述片語或詞組， 
制定規則讓機器研判上下文來選擇正確的語音，完成定調。下面的輸出例句是聲調群剖 
析器用來呈現初階人工智能 (Weak AI) 的部分範例。 （ 1) 代表變調， （ 2) 代表本調。 

(13) Tsit 32 siang 55 (1) e 23 (2) e 23 (1) e 23 - bin 33 (2) si 33 (1) nng 23 - a 53 - phue 23 (2) tso 31 - e 23 (2). 

(這雙鞋的鞋面是二榔皮製成的。） 

(14) Tsit 32 siang 55 (1) e 23 - bin 33 (2) si 33 (1) nng 23 - a 53 - phue 23 (2) e 23 (1) e 23 (2) si 33 (1) 
gua 53 - e 23 (2). (這雙鞋面為二榔皮的鞋子是我的。） 
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由於台閩語語詞連寫或分寫常會影響變調的推論結果。建立構詞容錯機制也是剖析 
器設計的重點之一。至於如何讓機器學習研判語境，不論是應用統計機率分析或是直接 
以規則引導，都必須依賴大量的知識、人力與計算資源，目前只能進行局部實驗。我們 
無法確知兒童的台閩語變調習得是否全然依循經驗法則，然而 (13)(14) 的定調結果，或可 
實證台閩語聲調群剖析器經由變調規則來分辨語音，繼而選擇語義的可行性。 

5.6 功能測試與實驗結果 （Function Testing and the Result of 
Experiment) 

一旦句內語詞被指定為本調，聲調群即可被切割出來，所以讀入新的文章就能產生新的 
聲調群或聲調群前詞做為語料庫的回饋單元。由於聲調群不需推論即可定調，因此回饋 
機制能夠提昇聲調群剖析器的變調正確率和執行效率。聲調群剖析器得到的回饋愈多， 
變調正確率也愈高。就像兒童初學語言一樣，藉著遞迴回饋機制，聲調群剖析器可以不 
斷地進化。這種設計在實務上也能用來驗證 ( Tsay , 1999) 和 ( Pan , 2003) 關於聲調群的論 
述。 

本研究的測試程序有兩種，一種是針對特定語詞或規則設計的除錯測試，另一種程 
序是針對剖析器進行的正確率與整體效率測試。內部測試語料包括十篇一般文章和五篇 
用來測試特定語詞和規則的文句。外部測試 (Outside test ) 語料來自隨機擷取的國小台閩語 
課本□語語句。除了語音判定以外，受測文章的語詞也加註推論調型值，可以計算變調 
正確率。目前內部測試平均變調正確率為98.5%。外部測試平均變調正確率為94%。 

程式開發期間，我們以内部測試語料做為初次回饋試材來更新知識庫。當內部測試 
平均變調正確率接近98.5%或變調正確率開始收斂時，同步進行兩種知識庫功能試驗。 
第一種測試只用語料庫的符號系統標記，不做規則推論。第二種測試完全不用知識庫， 
直接將單音節語詞標變調，複音節語詞標本調。下列兩個公式用來計算規則推論貢獻率 
和符號系統標記貢獻率。兩種測試都用相同的內部測試語料。 

規則推論貢獻率=內部測試正確率-第一種測試正確率 
符號系統標記貢獻率=第一種測試正確率-第二種測試正確率 

一般文章第一種測試的平均變調正確率為91.41%。第二種測試的平均變調正確率為 
75.87%。實驗結果顯示語料庫的規則推論對變調正確率有7.09%的貢獻率。符號系統標 
記則提供15.54%的貢獻率。相關數據列於表2。特定文句第一種測試的平均變調正確率 
為86.33%。第二種測試的平均變調正確率為60.35%。實驗結果顯示語料庫的規則推論 
對變調正確率有12.17%的貢獻率。符號系統標記則提供25.98%的貢獻率。相關數據列 
於表3。 
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表 2 . 一般文章變調測試實驗數據表 

[Table 2. Tone sandhi experiment data for the general articles] 


檔案 

編號 

第一種測試 

第二種測試 

正確語詞數 

( A ) 

語詞總 

( B ) 

正確率 

_) 

正確語詞數 
( C ) 

語詞總數 
( D ) 

變調正確率 

( C / D ) 

1 

396 

430 

92.09 % 

343 

430 

79.77 % 

2 

200 

224 

89.29 % 

157 

224 

70.09 % 

3 

307 

347 

88.47 % 

254 

347 

73.20 % 

4 

546 

603 

90.55 % 

454 

603 

75.29 % 

5 

201 

219 

91.78 % 

153 

219 

69.86 % 

6 

98 

105 

93.33 % 

68 

105 

64.76 % 

7 

1006 

1088 

92.46 % 

869 

1088 

79.87 % 

8 

607 

669 

90.73 % 

508 

669 

75.93 % 

9 

178 

203 

87.68 % 

153 

203 

75.37 % 

10 

613 

654 

93.73 % 

487 

654 

74.46 % 

加總 

4152 

4542 

91.41 % 

3446 

4542 

75.87 % 


表 3 . 特定文句變調測試實驗數據表 

[Table 3. Tone sandhi experiment data for the special files] 


檔案 

編號 

第一種測試 

第二種測試 

正確語詞數 
( A ) 

語詞總數 

( B ) 

正確率 

( A / B ) 

正確語詞數 

( C ) 

語詞總數 

( D ) 

正確率 

( C / D ) 

11 

411 

489 

84.05 % 

263 

489 

53.78 % 

12 

663 

773 

85.77 % 

463 

773 

59.90 % 

13 

606 

667 

90.85 % 

413 

667 

61.92% 

14 

456 

556 

82.01 % 

336 

556 

60.43 % 

15 

675 

771 

87.55 % 

490 

771 

63.55 % 

加總 

2811 

3256 

86.33 % 

1965 

3256 

60.35 % 
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由於特定文句內需要用規則推論的語詞所佔比率較一般文章為高，所以符號系統標 
記和規則推論對變調正確率的貢獻率也相對較高，與預期相符。此外，實驗數據也提供 
一個重要的線索：不論一般文章或特定文句都顯示符號系統標記比規則推論對變調正確 
率有相對較高的貢獻率。就台閩語聲調群的感知而言，長程記憶內的語詞訊息，可能比 
短期記憶的規則更重要，也更有效率。幼兒在台閩語習得的過程中，從語詞學會使用韻 
律訊息幫助自己界定聲調群的假說，也與我們的實驗結果相符。 

6. 結論 (Conclusion) 

台灣人的小孩在學習母語的過程中，可以經由聲調群來習得句法結構方面的知識。合理 
的假設是當越來越多的語言知識累積在兒童的腦海時，一個高效率的語詞變調處理機制 
也逐步建構完成。台閩語聲調群剖析器可說是一種人工智能的實驗平臺。我們設計一個 
符號系統並加以改良，做為將語言專業知識和經驗轉換為知識庫的重要工具，用來建構 
台閩語語料庫和變調處理器，將變調習得的模擬功能與語音輸出系統連結並完成測試。 
這種應用語言學理論建構台閩語聲調群剖析器的方法，在實務上是以知識工程技術來建 
立變調習得的模擬環境。先前認為若能將句内所有的語詞定調，就能將聲調群從台閩語 
語句切割出來的構想得以實作完成，不僅見證人工智能發展工具可以協助人類探索語言 
的認知功能來瞭解語言習得的過程，同時也呈現聲調管轄假說的可能性。我們嘗試以有 
限的語料和規則處理無限的文句，然而受限於知識庫的規模與計算資源，目前這個聲調 
群剖析器還不能處理自主語義和部份語句的定調問題。本研究若能進行監督式學習 
(Supervised learning ) 的模擬，或是完成聲調群及聲調群前詞的自動回饋機制，做為變調 
錯誤的最終解決方案，將來或可提升智慧型機器人的語音輸出功能。 
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